Loading...
机构名称:
¥ 1.0

强化学习 (RL) 是决策制定中的一种常用工具,它根据相关的累积回报/奖励从各种经验中学习策略,而不会对它们进行区别对待。相反,人类通常会学会区分不同的绩效水平,并提取潜在趋势,以改善他们的决策,从而获得最佳绩效。受此启发,本文提出了一种新颖的 RL 方法,通过区分收集到的经验来模仿人类的决策过程,从而进行有效的策略学习。主要思想是从具有不同绩效水平的经验中提取重要的方向性信息(称为评级),以便可以更新策略以使其偏离具有不同评级的经验。具体而言,我们提出了一种新的策略损失函数,该函数惩罚当前策略与具有不同评级的失败经验之间的分布相似性,并根据评级类别为惩罚项分配不同的权重。同时,来自这些评级样本的奖励学习可以与新的策略损失相结合,以实现来自评级样本的综合奖励和策略学习。优化综合奖励和策略损失函数将导致发现策略改进的方向,即最大化累积奖励,对最低绩效水平惩罚最多,对最高绩效水平惩罚最少。为了评估所提方法的有效性,我们在几个典型环境中进行了实验,结果表明,与现有的仅基于奖励学习的基于评级的强化学习方法相比,该方法的收敛性和整体性能都有所提高。

arXiv:2501.07502v1 [cs.LG] 2025 年 1 月 13 日

arXiv:2501.07502v1 [cs.LG] 2025 年 1 月 13 日PDF文件第1页

arXiv:2501.07502v1 [cs.LG] 2025 年 1 月 13 日PDF文件第2页

arXiv:2501.07502v1 [cs.LG] 2025 年 1 月 13 日PDF文件第3页

arXiv:2501.07502v1 [cs.LG] 2025 年 1 月 13 日PDF文件第4页

arXiv:2501.07502v1 [cs.LG] 2025 年 1 月 13 日PDF文件第5页

相关文件推荐

2025 年
¥1.0
2025 年
¥1.0